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JE 要 : 为 了 解决 全 卷 积 享 生 网 络 目标 跟踪 算法 (SiamFC) 在 复杂 环境 下 容易 出 现 跟踪 漂移 其 至 跟踪 失败 的 问题 ， 提 
出 了 一 种 基于 难 样本 挖 据 的 亭 生 网 络 目标 跟踪 方法 。 该 方法 在 SiamFC 算法 的 基础 上 ， 首 先 利 用 特征 融合 模块 进行 
特征 融合 ， 以 提高 特征 表征 的 鲁 棒 性 ， 然 后 引入 一 个 新 的 损失 函数 ， 加 强 网 络 对 难 样 本 的 学 习 能 力 并 缓解 正 负 样本 
不 平衡 的 问题 。 为 验证 该 方法 的 有 效 性 ， 在 OTB2015 和 GOT10k 数据 集 上 对 算法 进行 测试 实验 。 实 验 结 果 表明 ， 在 
OTB2015 数据 集 上 该 方法 比 SiamFC 算法 在 成 功率 上 提高 2.6%, 精度 上 提高 2% 在 GOT10K 数据 集 上 该 方法 的 mAO 
为 0.429， 相 比 SiamFC 算法 提高 了 3.7%， 在 光照 变化 、 目 标 形 变 、 相 似 背 景 干扰 情况 下 具有 更 好 的 表现 。 
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Abstract: In complex environment, the object tracking algorithm of fully-convolutional siamese network is prone to track 
drift or even track failure. In order to solve the problem, this paper proposed a siamese network tracking algorithm based on 
hard sample mining. On the basis of SiamFC, this method first used a feature fusion module for feature fusion to enhance the 
robustness of feature representation, and then proposed a novel loss function to strengthen the learning ability of network to 
hard samples and alleviate the problem of imbalance between positive and negative samples. To verify the validity, this method 
was tested on OTB2015 benchmark and GOTIOK dataset. The results of OTB2015 show that this method increases the success 
rate by 2.6% and the accuracy by 2% compared with SiamFC. On the GOTIOk dataset, the mAO of this method is 0.429, 
which is 3.7% higher than the SiamFC. It illustrates that this method has a better performance in the case of illumination 
variation, object deformation, and similar background interference. 
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0 引言 征 来 表征 目标 ， ERER HY HERS 观 发 生变 化 时 ， Bus 性 

差 。 此 外 ， 在 训练 过 程 中 没有 考虑 正 负 样本 不 平衡 以 及 大 量 

视觉 目标 跟踪 是 计算 机 视觉 领域 的 研究 热点 之 一 由， 广 ” 简单 负 样 本 的 问题 ， 这 些 简单 负 样 本 会 对 损失 函数 起 主要 作 

C 泛 应 用 于 智能 视频 监控 、 智 能 交通 等 领域 。 但 是 由 于 存在 目 用 ， 使 得 网 络 不 能 很 好 地 学 习 到 具有 判别 力 的 信息 ， 当 出 现 
"e 标 姿态 变化 、 形 状 变 化 等 内 在 因素 以 及 光照 变化 、 背 景 混杂 、 相似 背景 干扰 时 ， 很 容易 跟踪 错误 。 


遮挡 等 外 在 因素 的 干扰 ， 视 觉 目标 跟踪 仍然 面临 着 巨大 的 挑 因此 ， 本 文 以 SiamFC 算法 为 基础 ， 针 对 其 目标 表征 能 
战 .为 解决 目标 跟踪 的 难题 ,由 于 深度 特征 强大 的 表征 能 力 ， 力 的 欠缺 ， 提 出 特征 融合 模块 ， 将 浅 层 和 深层 的 特征 进行 融 
研究 者 开始 将 深度 学 习 用 于 目标 跟踪 领域 。HCF(hierarchical 合 得 到 更 为 鲁 棒 的 特征 来 表征 目标 。 同 时 ， 为 解决 正 负 样本 
convolutional features for visual tracking) 算 法 他、HDT(hedged 不 平衡 以 及 大 量 简单 负 样 本 的 问题 ， 提 出 改进 的 损失 函数 替 
deep tracking) 算 法 等 用 深度 学 习 的 卷 积 特征 代替 传统 相关 换 Logistic 损失 函数 来 提高 网 络 的 学 习 能 力 和 判别 力 。 最 后 ， 
滤波 跟踪 算法 的 人 工 特征 ， 大 幅度 提高 了 目标 跟踪 的 成 功率 本 文 提 出 基于 难 样本 挖掘 的 挛 生 网 络 目 标 跟 踪 方 法 ， 主 要 创 
和 精度 。 多 域 卷 积 神经 网 络 目标 跟踪 算法 内 (MDNeb 和 采用 离 新 点 为 : a) 针对 目标 形变 、 光 照 变 化 导致 目标 外 观 发 生变 化 
线 训 练 和 在 线 微调 相 结合 的 方式 ， 充 分 发 挥 了 深度 学 习 端 到 时 目标 表征 的 鲁 棒 性 欠缺 ， 利 用 提出 的 特征 融合 模块 提高 特 
端的 优势 ， 在 跟踪 性 能 上 获得 了 显著 提高 。 但 是 这 些 使 用 深 征 表征 的 鲁 棒 性 ; b) 针对 相似 背景 干扰 问题 , 提出 一 种 改进 
度 学 习 的 目标 跟踪 算法 的 推理 过 程 计算 复 杂 度 高 ， 没 有 很 好 的 损失 函数 加 强 对 难 样本 的 学 习 ， 提 高 跟踪 算法 的 判别 力 。 


Hs 


地 平衡 准确 性 和 实时 性 。 而 基于 李 生 网 络 的 目标 跟踪 算法 ， 。 1 未 文 方法 

将 目标 跟踪 问题 看 做 是 一 个 目标 模板 和 候选 区 域 的 相似 度 度 

量 问题 ， 在 目标 跟踪 的 实时 性 上 有 着 很 大 的 优势 。 因 此 ， 基 节 将 详细 描述 提出 的 基于 难 样本 挖 据 的 挛 生 网 络 目标 
于 挛 生 网 络 的 目标 跟踪 算法 65-9 逐 渐 成 为 目标 跟踪 的 主流 算 跟踪 方法 ， 其 整体 结构 如 图 1 所 示 。 


核心 思想 为 通过 权重 


Jus 


RA 
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。 其 中 , 全 卷 积 挛 生 网 络 目标 跟踪 算法 中 (SiamFC) 同 时 考虑 共享 的 两 支 Alexnet 网 络 提取 目标 模板 z 和 搜索 区 域 x 的 特 
了 速度 和 精度 ， 但 是 由 于 其 只 使 用 了 网 络 提取 的 最 后 一 层 特 征 ， 将 提取 得 到 的 三 层 特征 通过 设计 的 特征 融合 模块 进行 融 
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融合 后 更 为 鲁 棒 的 特征 来 表征 目标 ， 然 后 经 过 一 个 
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征 维度 的 一 致 性 。c) 接着 进行 add 求 和 和 ReLU 激活 操作 ， 


相似 度 计算 的 卷 积 操作 得 到 尺寸 为 17x17x1 的 目标 位 置 响应 


图 ， 并 通过 改进 Logistic 损失 函数 来 力 
目标 定位 。 


Fig. 1 


1.1 多 特征 融合 


图 1 


本 文 方法 的 跟踪 框架 


Framework ofthe proposed method 


1 强 相似 背景 干扰 时 的 


AR 


将 两 层 的 特征 做 一 个 元 素 级 融合 ， 把 深层 特征 的 语义 判别 信 
息 和 浅 层 特征 的 空间 位 置信 息 结合 到 一 起 。d) 最 后 采取 


interpolation 插值 操作 , 保证 输出 特征 的 感受 野 适用 于 目标 跟 
踪 的 精确 定位 问题 。 最 终 ， 整 个 特征 融合 的 公式 为 

Pou =O (Pr Pai) (1) 
其 中 e) 代表 特征 融合 操作 。 


1.2 难 样 本 挖掘 损失 函数 
进一步 地 ， 针 对 目标 跟踪 中 相似 背景 干扰 问题 ， 本 文 提 
出 一 个 难 样本 挖掘 损失 函数 。 在 SiamFC 算法 中 使 用 的 是 
logistic 损失 函数 用 于 模型 的 训练 : 

Ly.v) 2 log (1 exp(-»v)) (2) 
其 中 ”是 目标 模板 与 搜索 区 域 候 选 框 的 相似 度 分 数 ， 
ysf+l- 二 是 正 、 负 样本 的 标签 值 。 


于 语义 特征 具有 丰富 的 语义 信息 ， 利 于 目标 和 背景 的 于 搜索 区 域 的 目标 候选 框 大 多 数 属于 背景 即 负 样 本 ， 
判别 ,因此 常常 采用 网 络 提取 的 最 后 一 层 的 特征 来 表征 目标 ， 少数 包含 目标 区 域 即 正 样 本 ， 带 来 了 训练 过 程 中 正 负 样本 的 
然而 语义 特征 的 分 辩 率 低 ， 不 能 很 好 地 捕捉 到 空间 位 置 等 细 不 平衡 问题 。 这 种 正 负 样本 的 不 平衡 进一步 造成 了 大 量 简单 
节 信 息 ， 这 些 细节 信息 也 是 目标 准确 定位 的 关键 。 卷 积 神经 负 样 本 的 存在 。 但 是 在 logistic 损失 函数 中 赋予 正 、 负 样本 相 
网 络 提取 的 浅 层 特征 含有 丰富 的 细节 信息 ， 深 层 特征 含有 丰 同 的 权重 ， 没 有 平衡 好 正 样本 和 负 样 本 对 模型 训练 的 影响 ， 
富 的 语义 信息 。 因 此 ， 本 文 提出 一 个 特征 融合 模块 来 有 效 结 ” 导致 跟踪 的 性 能 受 限 ; 没有 考虑 训练 样本 中 存在 的 大 量 简单 
合 来 自 深 层 和 浅 层 的 特征 信息 。 其 具体 结构 如 图 2 所 示 。 本  ” 负 样 本 ,这 些 简单 的 负 样 本 会 对 损失 函数 的 计算 起 主要 作用 ， 
文采 用 经 过 修改 的 Alexnet 作为 权重 共享 的 挛 生 网 络 用 于 特 ”使 得 网 络 不 能 够 很 好 地 学 习 到 具有 判别 力 的 信息 ， 当 出 现 相 
征 的 提取 ， 其 网 络 结构 如 表 1 所 示 。 似 背 景 干扰 时 ， 更 容易 出 现 跟 踪 漂 移 和 失败 。 
| s| i 因此 , 针对 以 上 问题 , 基于 logistic 损失 函数 提出 了 一 种 
P, bi 改进 的 损失 函数 ; 
HxWxC " I») 2 al -py log (1 exp(-»v)) * 
Ten 3) 
73 (l-2) p” log(1+exp(-yv)) 
"T i Wc 
即 
H'xW'xC a(1- p) log(l+exp(v)) y=1 
图 2 特征 融合 模块 结构 Def ii y=- Wn 
Fig.2 Structure of feature fusion module 其 中 p 是 目标 模板 与 搜索 区 域 候 选 块 的 相似 度 概 率 值 ， 
表 1 BENKE 通过 sigmoid 函数 计算 得 到 ; 7 是 关注 困难 样本 的 放 缩 因子 ; ^ 
Tab. 1 Structure of siamese network 为 平衡 正 负 样本 的 权重 。 进 一 步 地 将 改进 的 损失 函数 表示 为 
尺寸 _| &y=1 | p,y=1 
网 络 层 。 尺寸 通道 BELL DEAE ac ama 6) 
input / / | | 1271273 255x255x3 1(y,v) 2 a, (1 pry log(1+exp(-yv)) (6) 
convl 11x11 192 2 59x59x192 123x123x192 在 该 改进 的 损失 函数 中 ， 引 入 了 ar 权重 项 ， 设 置 正 样本 
maxpooll 3x3 — / 2 29x29x192 61x61x192 的 权重 大 于 负 样 本 的 权重 ， 拉 近 正 负 样 本 对 损失 值 计 算 的 贡 
conv2 5x5 512 1 25x25x512 57x57x512 献 ， 此 外 ， 还 引入 了 (4-pi) 这 一 动态 项 ，7 设置 为 大 于 0 的 
maxpool2 3x3 / 2 12x12x512 28x28x512 值 ， 对 于 简单 负 样本 ， 产 更 易 趋 于 1，(-p) 趋 于 0, mme 
conv3 3x3 768 1 10x10x768 26x26x768 加 更 多 的 简单 负 样 本 的 计算 值 才能 对 损失 函数 起 作用 。 对 于 
conv4 3x3 768 1 8x8x768 24x24x 168 困难 负 样 本 ， 产 更 易 趋 于 0，(-m7 趋 于 1, 这 样 对 于 困难 负 
conv5 3x3 512 1 6x6x512 22x22x512 样本 的 权重 相对 加 大 了 ， 更 加 注重 困难 样本 。 两 者 同时 作用 
在 网 络 提取 的 不 同 层 的 特征 中 ,conv2 层 的 步 长 为 4, 其 ” 时 ， 该 新 的 损失 函数 能 够 更 好 地 指导 模型 的 学 习 ， 使 得 跟踪 
特征 分 辩 率 较 高 ， 包 含 更 多 位 置 细 节 信 息 ， 利 于 目标 位 置 的 模型 的 性 能 提高 ， 在 目标 跟踪 时 能 够 更 好 地 应 对 相似 背景 干 
定位 ，conv3 层 的 步 长 为 8， 特 征 更 为 稀疏 ， 含 有 语义 信息 ， 扰 的 情况 。 
conv5 经 过 两 层 卷 积 进一步 提取 更 为 复杂 的 语义 信息 。 因 此 ， 于 目标 模板 的 尺寸 比 搜索 区 域 的 尺寸 小 ， 会 得 到 一 个 


本 文选 择 conv2、 


模块 实 
来 表征 
跟踪 精度 。 
特征 融合 模块 的 输入 是 Hxwxc 的 深层 特征 o, 和 
H'xW'xcC' 的 浅 层 的 特征 o ， 


conv3, conv5 这 三 层 特 行 


BT Ez RE 


E 输 入 到 特征 融合 


标 ， 提 高 跟踪 器 应 对 


DS 


EU 征 o, 进行 ] 


值 实现 特征 图 的 上 采样 ,提高 深层 特征 的 


ix 
操 


E 和 深层 特征 的 融合 ， 获 得 更 为 鲁 棒 的 特征 
标 外 观 变 化 的 跟踪 鲁 棒 性 和 


融合 过 程 描述 如 下 : a) 首先 对 
上 采样 upsample 操作 ， 本 文 使 用 双 线 性 插 


DIR. b) 然后 对 


REHE w 和 上 采样 后 的 深层 特征 w 进行 


个 conv 卷 积 


E, KARER 


E 的 通道 数 降 维 


至 与 浅 层 特征 


致 ， 保 证 特 


相似 度 响应 图 D ， 其 是 由 目标 模板 与 搜索 区 域 中 所 有 候选 块 
的 相似 度 分 数组 成 。 因此 , 整个 相似 度 响应 图 的 损失 函数 定 
义 为 每 一 对 目标 模板 和 搜索 区 域 候选 块 损失 的 平均 值 : 


1 
L(y,v)= mx 2 Olu v) 


0) 
LueD 的 标签 值 ， 正 样本 为 


其 中 »[u]et-L-1 是 每 
y[u]=1， 人 负 样 本 为 y[x]=-1 。 
1.9 ”基于 难 样本 挖掘 的 挛 生 网 络 目标 跟踪 

SiamFC 算法 将 视觉 目标 跟踪 看 做 是 一 种 模板 匹配 的 问 
题 ， 即 通过 在 每 一 帧 中 搜索 与 目标 模板 相似 的 区 域 来 对 目标 


个 位 
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进行 


定位 。 通 过 


学 习 相 似 度 度量 函数 f(z,x) ， 根 据 学 习 的 结果 


标 模板 特征 和 搜索 区 域 候选 块 特 条 


计算 


数 。 
跟踪 
络 分 


AlexNet 。 


conv. 


分 文 


H.rH. 
N : 


征 e(z) $ 


fzx) =g lR, p) 


JU. cuES 


F 之 间 的 相似 度 分 数 : 


(8) 


本 文 方法 通过 离线 训 
首先 从 同 


3. conv5 这 
g= 


g() 是 一 个 相似 度 度 
是 搜索 区 域 候选 块 的 特征 。 
练 来 学 习 用 于 模板 匹配 的 相似 度 函 
标 模 板 和 搜索 区 域 作为 
k 享 权重 的 卷 积 神 
的 卷 积 神经 网 络 是 修改 的 的 
然后 通过 级 联 的 特征 融合 模块 对 选取 的 conv2、 

三 层 的 特征 9, 、 e. 


个 视频 序列 中 获取 
器 的 输入 ， 然 后 经 过 相同 的 两 个 共 
支 进行 特征 提取 ， 本 文采 上 


t; 9(z) 在 


标 模 板 的 特征 ; 


g(x) 


o(p, 0 (Pp )) 


接着 对 融合 得 到 的 


村 征 eo) 做 一 


经 网 


标 模 板 分 支 特征 
个 交叉 相关 操作 ， 
搜索 区 域 候选 块 的 特 和 有 


计算 目标 模板 分 支 的 特 
E ep(z) 之 间 的 相似 度 分 数 : 


其 中 * 代表 交叉 相关 


f(nx)s5gG*oGO-cb 
操作 ，2 为 偏 置 项 


相似 度 得 


域 大 小 有 关 。 


别 力 。 


当前 帧 中 的 位 置 。 相 似 度 响应 图 的 维 


最 后 ， 在 训练 的 过 程 中 使 用 
权重 进行 更 新 ， 使 得 网 络 学 到 更 有 


o 输出 为 相似 度 响应 图 ， 
分 最 大 的 位 置 即 为 目标 的 位 置 ， 


9, 进行 融合 : 


(9) 
2(z) 和 搜索 区 域 


(10) 


以 此 来 确定 目标 在 


x 


标 模 板 和 搜索 区 


失 函 数 来 对 网 络 的 


跟踪 时 根据 上 


页 目标 位 


区 域 用 于 计算 相似 度 响 应 得 分 图 ， 


帧 中 目标 的 位 置 


的 信息 ， 具 有 更 强 的 判 


的 中 心 来 获得 当前 帧 的 搜索 


2 ”实验 和 实验 结果 分 析 


2.1 实验 细节 


a) 训练 数据 准 


避免 过 度 拟 合 跟 踪 况 


Zia E MGE EIE 


1$: 为 了 提高 通用 目 


得 分 最 大 的 位 置 即 为 当前 


1 试 的 数据 集 ， 
| 练 。 


标 跟 踪 器 的 泛 化 能 力 ， 
本 文 方法 在 ILSVRCISUÜ! 
这 个 数据 集 包 含 超过 4000 个 序列 ， 
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其 中 ou 是 中 心 位 置 误 差 的 闪 值 ， 单 位 为 pixel。 

成 功率 为 每 个 成 功率 图 曲线 下 的 面积 (AUC)， 即 不 同 重 
著 阔 值 对 应 成 功率 的 平均 值 。 其 中 每 个 重合 闵 值 的 成 功率 计 
算 公式 为 


R, OR, 
R, UR, 
其 中 R 是 真实 位 置 的 目标 框 ，R 是 预测 的 目标 框 ， ow 是 目 
示 重 又 率 的 一 个 六 值 ， 范 围 为 0-1. 

在 GOT10k00 数 据 集中 ， 选 用 AO(average overlap) 作 为 
指标 来 计算 预测 目标 框 和 实际 目标 框 之 间 的 平均 重 又 度 。 考 
虑 到 在 评估 过 程 中 存在 的 类 别 不 平衡 问题 ， 进 一 步 使 用 了 计 
算 mAO 这 种 类 别 平衡 的 度量 方式 来 评估 : 


mao- (Yo (4) 
DEEST EE MET 


S (Owe) = ZO. (13) 


2 
A 


其 中 c 表示 类 别 的 数量 ，5, 表示 属于 


a) 参数 7 作用 于 (1- 


py 这 一 权重 项 ， 来 关注 困难 样本 。 
当 7Y=0 时 ， 权 重 项 不 起 作用 ， 相 当 于 原来 的 logistic 损失 函 
数 ; 当 s 权重 项 发 挥 作用 。 不 同 7 取 值 下 ， 本 文 
方法 结果 如 表 2 所 示 。 当 =2 时 ， 本 文 方法 的 实 


— 
i 


HE m 
Hn 


表 2 不 同 7 取 值 下 本 文 方法 的 AUC 
Tab.2 AUC of the proposed method under different 7 
y 0 1 2 3 4 
AUC 0.535 0.539 0.558 0.468 0.473 


b) 参数 “ 是 调节 正 负 样本 不 平衡 的 重要 参数 , 通过 权重 
姑 子 & 的 调节 ， 拉 近 正 、 负 样本 的 损失 值 。 不 同 & 取 值 下 ， 
本 文 方法 的 测试 实验 结果 如 表 3 所 示 。 当 x =0.6 时 ， 本 文 方 
法 的 实验 结果 最 好 。 
表 3 不 同 & 取 值 下 本 文 方法 的 AUC 
Tab.3 AUC of the proposed method under different C 


超过 100 万 的 视频 帧 。 在 同一 个 视频 序列 中 随机 选择 2 dui, a 0.5 0.6 0.7 0.8 0.9 
将 其 作为 目标 模板 和 搜索 区 域 的 训练 数据 对 ， 并 对 其 进行 进 AUC 0.556 0.589 0.532 0.496 0.512 
一 步 裁 前 和 填充 ， 使 得 目标 位 于 每 一 帧 的 中 心 : 2.44 实验 结果 分 析 
(w-2p)x(h*-2p)- A? (11) OTB2015 数据 集 一 共 含 有 100 个 跟踪 序列 ， 包 含 了 11 

其 中 w 和 分 别 为 目标 边界 框 的 宽 、 高 ，4 为 目标 模板 的 大 种 具有 挑战 的 序列 , 在 这 个 数据 集 上 将 本 文 方法 和 SiamFCIq 
小 ,PP 为 (w+)/4 ,在 训练 中 采用 的 目标 模板 大 小 为 127x127， 算法 进行 了 比较 , 并 且 还 和 GOTURNII2、CFNet031、SINTG、 
搜索 区 域 大 小 为 255x255。 MEEMI", Staplel5!, DSiaml!®, DSSTU7, KCFU8I, SAMFU?I, 

b) 训练 设置 : 在 训练 中 设置 了 5016, 在 2 个 GPU 上 训 SturctSiam20、SiamTri20 这 些 主流 的 目标 跟踪 算法 也 作 了 比 
Zi, Batch 设置 为 8。 使 用 SGD 对 网 络 参数 进行 更 新 ， 动量 。 较 。 图 3、4 分 别 为 这 13 种 目标 跟踪 算法 在 OTB2015 数据 集 
设置 为 0.9， 学 习 率 以 几何 退火 的 方式 从 102 到 105 自动 调 ”上 的 成 功率 图 和 精确 度 图 。 
Ex, BL 重 衰减 设置 为 Sx10- M Success plots of OPE 


c) 测试 设置 


DAR 
羽 子 设置 为 0.9745， 


: 初始 目标 的 外 观 只 计算 一 次 。 使 用 双 线 性 
插值 将 17x17 的 相似 度 得 分 图 转换 成 255x255 获得 更 精确 的 
使 用 3 个 尺度 1.03755104 对 目 


衰减 因子 为 0.35。 


d) 实验 环境 和 设备 : 本 文 方法 使 用 python 在 Pytorch 中 


标 进 行 搜索 ， 尺 度 惩罚 


实现 , 在 显存 为 11GB 的 NVIDIA GeForce RTX2080Ti GPU, 
CPU 为 3.3GHz 的 Intel Corei9-7900X， 内 存 为 64GB 的 设备 


上 进行 的 。 
2.2 评价 标准 


在 OTB2015 数据 集 09 中 选用 
测试 方法 ， 计 算 两 个 评价 


Hn: 精确 度 图 


OPE(one pass evaluation) 的 
(precision plot) 和 成 


功率 图 (success plot)。 精 确 度 表示 跟踪 器 预测 位 置 的 中 心 C. 


与 真实 位 置 的 中 心 CO 距离 小 于 20 像素 的 帧 数 占 总 帧 数 的 百 


分 比 : 


P(asucc) = lC. -C I < Osucc 


(12) 


Loazon errar threshoid 


图 3 OTB2015 数据 集 上 图 4 OTB2015 数据 集 上 
算法 的 成 功率 算法 的 精确 度 


Fig.3 Success plot of algorithm on 
OTB2015 benchmark 

从 图 3、4 的 测试 结果 可 以 看 到 

算法 ， 在 成 功率 上 提高 了 2.6%， 在 精确 度 上 提高 了 2%， 表 

明了 本 文 方法 引入 特征 融合 和 新 的 损失 函数 的 有 效 性 。 与 同 

样 通过 改进 损失 函数 的 跟踪 算法 相 比 ， 由 于 SiamTri 算法 通 

过 引入 Triplet 损失 , 更 为 充分 地 利用 正 样本 和 负 样 本 之 间 的 


Fig.4 Precision plot of algorithm on 
OTB2015 benchmark 
,本 文 方法 相 比 于 SiamFC 
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录用 定稿 X ij, 
联系 ， 但 是 SiamTri 算法 对 目标 外 观 变化 效果 不 好 ， 因 此 在 


精度 上 本 文 方法 不 如 SiamTri 算法 ， 但 是 在 成 功率 上 本 文 方 
法 和 SiamTri 算法 接近 。StructSiam 算法 充分 利用 局 部 特征 ， 
但 本 文 方法 深度 挖掘 难 样本 的 信息 ， 在 跟踪 器 性 能 上 本 文 方 
法 与 StructSiam 算法 同样 有 竞争 性 。 此 外 ， 相 比 于 其 他 基于 
挛 生 网 络 的 目标 跟踪 算法 ， 本 文 方法 取得 了 更 优异 的 性 能 ， 
特别 是 本 文 方法 比 SINT 算法 在 成 功率 上 高 296, 精度 基本 持 
平 。 但 是 SINT 算法 通过 大 量 的 匹配 计算 非常 耗 时 ， 而 本 文 

速度 达到 71FPS， 远 超 SINT 算法 的 4FPS， 在 保证 跟 
宗 准确 度 的 同时 ， 速 度 也 达到 了 实时 性 的 要 求 。 本 文 方法 采 

操作 代替 滑动 窗口 检测 ， 以 解决 边界 效应 ， 因 此 相 比 
T KCF 算法 在 成 功率 上 大 幅度 提高 了 13.990. 在 精度 上 提高 
了 15.2%。 

GOTIOK 数据 集 包 括 超过 10000 个 视频 , 目标 框 超过 150 
万 个 ， 可 细 分 为 563 个 目标 类 别 ， 此 数据 集 还 有 一 个 动作 类 
别 ， 分 为 87 种 动作 。 用 于 测试 的 数据 集 包 含 180 个 视频 序 
列 ， 包 括 84 个 目标 类 别 ，32 个 动作 类 别 。 因 此 ， 进 一 步 在 
难度 更 大 的 GOTIOk 数据 集 上 将 本 文 方法 和 SiamFCI、 
SiamRes??), SiamFC2l3, DSiamU89, GOTURNIU?Ix 5 种 算 
法 作 了 比较 ， 测 试 结果 如 表 4 所 示 。 

表 4 GOTIOk 数据 集 上 的 测试 结 

Tab.4 Test result of the GOT10k 

指标 SiamFC SiamRes SiamFC2 DSiam GOTURN 本 文 
mAO 0.392 0.385 0.434 0.417 0.418 0.429 


T 


从 表 4 的 测试 结果 可 以 看 到 ， 本 文 方法 相 比 于 SiamFC 
算法 mAO 提高 了 3.7%。SiamFC2 在 SiamFC 的 基础 上 加 入 
相关 滤波 , 并 且 实 现 端 到 端的 训练 , 和 本 文 方法 的 性 能 接近 。 
SiamRes 算法 采用 更 深 的 主干 网 络 , 但 没有 利用 浅 层 的 特征 
缺乏 位 置 细节 信息 ， 本 文 方法 的 mAO 比 SiamRes 算法 提高 


T 4496, 进一步 证 明了 本 文 方法 的 有 效 性 和 较 好 的 泛 化 能 力 。 


以 上 是 对 不 同 跟踪 器 的 一 个 定量 评价 ， 为 了 进一步 定性 
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示 干扰 的 情况 下 的 表现 比 SiamFC 算法 更 好 ， 当 出 现 相似 目 


败 


相 


改进 的 有 效 性 。 
比 在 性 能 上 也 
谈 挡 问题 ， 在 今 


未 干扰 时 ， 本 文 方法 依然 跟踪 成 功 ， 而 SiamFC 算法 完全 失 
了 ,例如 图 5(c) 的 79 帧 ,123 帧 和 图 6(c)m] 79 ni. 123 帧 。 


(c) Bolt 
图 6 本 文 方法 的 跟踪 结果 
Fig.6 Tracking result of the proposed method 


结束 语 
本 文 提出 了 基于 难 样本 挖掘 的 挛 生 网 络 目标 跟踪 算法 ， 
要 解决 在 光照 变化 、 目 标 形变 情况 下 的 特征 表征 问题 以 及 


以 背景 干扰 情况 下 的 难 样本 学 习 问 题 。 首 先 ， 在 全 卷 积 杰 
网 络 目标 跟踪 算法 的 基础 上 引入 了 一 个 特征 融合 模块 ， 提 
了 特征 表征 的 鲁 棒 性 。 然后, 基于 logistic 损失 函数 提出 改 
的 损失 函数 ， 加 强 了 网 络 对 难 样 本 的 学 习 能 力 。 实 验 结果 
HH, 在 OTB2015 数据 集 上 相 比 于 SiamFC 算法 ,在 成 功率 
是 升 了 2.6%， 在 精度 上 提升 了 2%， 在 GOTIOK 数据 集 上 
HEF SiamFC 算法 的 mAO 提高 了 3.7%， 验 证 了 本 文 方法 
本 文 方法 和 其 他 一 些 主流 的 目标 跟踪 算法 相 
很 大 的 竞争 力 。 但 是 本 文 方法 没有 考虑 目标 
后 的 工作 中 将 考虑 目标 有 遮 挡 问 题 ， 来 进一步 


地 对 本 文 方法 进行 评估 ， 在 OTB2015 数据 集中 选取 了 
Skating2( 目 标 形变 )、Singer2( 光 照 变化 )、Bolt( 背 景 杂 乱 ) 这 3 
个 挑战 性 的 视频 序列 对 本 文 方法 和 SiamFC 算法 进行 了 进 
步 的 测试 实验 。 a 
三 个 视频 序列 上 的 跟踪 结 


mz |- -7 


(a) Skating2 


(c) Bolt 

图 5 SiamFC 算法 的 跟踪 结 
Fig.5 Tracking result of siamfc 
通过 对 SiamFC 算法 和 本 文 方法 在 三 个 视频 序列 上 的 跟 
踪 结 果 的 分 析 ， 本 文 方法 相 比 于 SiamFC 算法 具有 更 强 的 抗 
变 能 力 , 当 目 标 发 生 较 大 的 形变 时 , SiamFC 算法 的 目标 定 
位 有 着 明显 的 偏差 ， 而 本 文 方法 可 以 较为 准确 地 定位 目标 ， 
例如 图 5(a) 的 192 帧 和 图 6(a) 的 192 帧 ;本文 方法 在 目标 发 
生 严 重 的 光照 变化 时 也 表现 出 了 一 定 的 抵抗 能 力 , 而 SiamFC 
算法 当 目 标 受到 光照 变化 的 影响 时 跟踪 失败 了 ， 例 如 图 Sb) 
的 59 帧 、70 帧 和 图 6(b) 的 59 帧 、70 i; 本 文 方法 在 相似 


高 目标 跟踪 算法 的 性 能 。 
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